Nov15, 2023

CAPTCHA 是如何工作的？

Sora Fujimoto

AI Solutions Architect

概要

CAPTCHA 是一种安全机制，旨在通过提出对人类容易但对机器困难的挑战来区分人类和自动机器人。基于图灵测试的原则，CAPTCHA 从扭曲的文本演进到像 Google reCAPTCHA 这样的先进系统，该系统结合了图像识别、行为分析和机器学习。虽然对于网络安全和防止滥用至关重要，但 CAPTCHA 可能会影响用户体验和可访问性，并且并非完全免疫于高级自动化。

理解 CAPTCHA

CAPTCHA 代表“完全自动化的公共图灵测试，以区分计算机和人类”，有时也被称为“人类交互证明（HIP）”。其目的是区分人类和自动机器人。传统的 CAPTCHA 会扭曲和变形文本或数字，让用户进行解码——对人类来说是简单任务，但对机器来说却很复杂。

图灵测试的遗产

1950 年，现代计算机的先驱阿兰·图灵提出了图灵测试，旨在评估机器是否能模拟人类思维。该测试包括测试者向人类和机器提问，仅凭其回答来判断哪一个是人类。如果测试者无法区分，那么机器就被认为通过了测试。这一原则构成了传统 CAPTCHA 的基础。

CAPTCHA 的工作原理

CAPTCHA 的目标是将人类与自动实体区分开来。它们会从一个庞大的数据库中向用户展示各种图像，确保有广泛的挑战。其复杂性在于，如果答案嵌入在图像元数据中或保持不变，机器可以轻松破解它们。

虽然设计为人类可解决，但 CAPTCHA 并非总能在第一次尝试中轻松解决。研究表明，人类能成功解决约 80% 的 CAPTCHA，而机器的成功率仅为 0.01%。

CAPTCHA 中的视觉挑战

传统 CAPTCHA 主要依赖视觉识别，利用人类在视觉处理上的优势，而计算机则较弱。人类擅长识别模式并建立联系，这种现象称为似曾相识（pareidolia）——比如在云中看到熟悉的形状。

为了帮助有视觉障碍的人，CAPTCHA 也提供音频格式，包括背景噪音，以阻止机器人尝试解决它们。

为什么 CAPTCHA 对网络安全至关重要

CAPTCHA 主要保护网页免受恶意活动的侵害，防止机器人滥用网站。虽然对安全至关重要，但它们有时会阻碍研究或商业目的的数据收集。

CAPTCHA 的实际应用

电子邮件安全：CAPTCHA 通过阻止机器人滥用免费电子邮件服务发送大量广告来防止垃圾邮件。
票务销售保护：它们阻止转售者使用机器人批量购买热门活动的票，确保公平的票务分配。
对抗 DDoS 攻击：网站部署 CAPTCHA 以抵御分布式拒绝服务（DDoS）攻击，这些攻击可能使服务过载并中断。

对研究和数据收集的影响

CAPTCHA 虽然对安全有益，但会阻碍需要访问和分析大量公共数据的研究人员，这在数据密集型任务中是一个挑战。

CAPTCHA 的多种类型
CAPTCHA 主要有三种类型：基于文本、基于图像和基于音频。

基于文本的 CAPTCHA：这些包括各种格式的扭曲字母和数字，如 Gimpy（多词）、EZ-Gimpy（单词）、Gimpy-r（随机字母）和 Simard 的 HIP（带干扰图形的字母和数字）。
基于图像的 CAPTCHA：用户需要从图像网格中选择相关图片，通常包括日常物品。这种类型需要复杂的比较算法，能有效挑战机器人。
基于音频的 CAPTCHA：这些与基于文本和图像的 CAPTCHA 一起使用，包含在背景噪音中的语音符号，使机器人难以解码。

探索 reCAPTCHA：谷歌的高级安全服务

reCAPTCHA 是谷歌提供的一种服务，其功能类似于传统 CAPTCHA，但具有增强功能。例如，noCAPTCHA reCAPTCHA 将流程简化为一个复选框，必要时会进行进一步验证。

reCAPTCHA 的演变

最初，reCAPTCHA 用于数字化书籍和街道名称，利用各种来源的图像和文本进行用户验证。这些挑战对人类简单，对机器人复杂，随着技术发展而不断演进。如今的 reCAPTCHA 包括图像识别、复选框验证和行为分析，需要的用户交互极少。

reCAPTCHA 测试的类型

图像识别：涉及在图像网格中识别特定对象，用户回答会与多数答案进行验证。
复选框验证：不仅仅是勾选复选框，还会分析用户的鼠标移动和行为以验证真实性。
基于行为的评估：最新版 reCAPTCHA 通过评估用户交互模式和浏览历史来验证人类活动，仅在必要时提出挑战。

reCAPTCHA 版本：v2 与 v3

reCAPTCHA v2：通过勾选复选框的简单操作定义，偶尔会提示进一步测试。
reCAPTCHA v3：在后台运行，使用机器学习分析用户行为并分配评分，帮助网站管理员识别机器人。

挑战与局限性

虽然 reCAPTCHA 能过滤大量机器人流量，但它们并非无懈可击，对复杂攻击可能无法完全防范，同时可能影响用户体验。其效果取决于具体场景，v2 适合小型网站，v3 适合大型复杂网站。

reCAPTCHA 的触发条件

这些高级 CAPTCHA 会根据如异常的鼠标移动、Cookie 跟踪和特定的浏览模式等信号进行激活。

CAPTCHA 在 AI 发展中的作用

作为 AI 训练工具，CAPTCHA 有助于提升图像识别能力，这是计算机视觉的挑战领域。

解决 CAPTCHA 是否可能？

虽然具有挑战性，但解决 CAPTCHA 是可能的，这标志着改进这些安全措施的一步。CapSolver 等技术可帮助在不触发 CAPTCHA 机制的情况下进行数据收集。

领取 CapSolver 奖励代码

立即提升您的自动化预算！
在充值 CapSolver 账户时使用奖励代码 CAPN，每次充值可获得额外 5% 奖励——无限制。
立即在您的 CapSolver 仪表板中领取
。

结论

CAPTCHA 在区分人类和机器人方面起着基础性作用，其原理基于图灵测试。其多样形式和进步，尤其是 reCAPTCHA 技术，体现了其在网络安全和 AI 进步中的关键作用，尽管在阻止所有机器人活动方面存在一定的局限性。

常见问题（FAQ）

1. 网站为何使用 CAPTCHA？
网站使用 CAPTCHA 以区分人类用户和自动机器人，并防止垃圾邮件、滥用和恶意活动，如凭证填充和拒绝服务攻击。

2. CAPTCHA 和 reCAPTCHA 之间有什么区别？
传统 CAPTCHA 依赖于直接的挑战-响应测试，如文本或图像识别，而 reCAPTCHA 增加了行为分析和风险评分，以减少用户摩擦并提高准确性。

3. CAPTCHA 能完全防止机器人吗？
CAPTCHA 显著减少了自动流量，但并非完全无懈可击。随着自动化和机器学习技术的发展，CAPTCHA 系统必须不断演进。

4. CAPTCHA 是否影响用户体验或可访问性？
是的。视觉 CAPTCHA 对某些用户（尤其是有视觉障碍的人）可能不便或困难。为了解决这些问题，使用了音频替代方案和基于行为的验证。

查看更多

The other captchaApr 03, 2026

如何处理网页爬虫拦截：实用的方法

学习如何有效处理网络爬虫障碍。探索实用的方法、反爬虫检测的技术洞察以及可靠的数据采集方案。

Ethan Collins